{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "%load_ext autoreload\n",
    "%autoreload 2\n",
    "import sys\n",
    "import os\n",
    "import re\n",
    "# os.chdir(\"E:\\\\GitHub\\\\QA-abstract-and-reasoning\")\n",
    "sys.path.append(\"E:\\\\GitHub\\\\QA-abstract-and-reasoning\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 100,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd\n",
    "from utils.config import TRAIN_SEG, TEST_SEG"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 109,
   "metadata": {},
   "outputs": [],
   "source": [
    "_train_seg = pd.read_csv(TRAIN_SEG).fillna(\"\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 110,
   "metadata": {},
   "outputs": [],
   "source": [
    "_train_seg['train_seg_y'] = _train_seg['Report']\n",
    "_train_seg['train_seg_x'] = _train_seg[['Question', 'Dialogue']].apply(lambda x: ' '.join(x), axis=1)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 111,
   "metadata": {},
   "outputs": [],
   "source": [
    "_train_seg['x_len'] = _train_seg['train_seg_x'].apply(lambda x: len(x.strip().split(\" \")))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 54,
   "metadata": {},
   "outputs": [],
   "source": [
    "_train_seg.sort_values(by=\"x_len\", inplace=True)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 105,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>QID</th>\n",
       "      <th>Brand</th>\n",
       "      <th>Model</th>\n",
       "      <th>Question</th>\n",
       "      <th>Dialogue</th>\n",
       "      <th>Report</th>\n",
       "      <th>train_seg_y</th>\n",
       "      <th>train_seg_x</th>\n",
       "      <th>x_len</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>79977</th>\n",
       "      <td>Q79978</td>\n",
       "      <td>宝骏</td>\n",
       "      <td>宝骏610</td>\n",
       "      <td>VAVSNVZNZZNXNDHDBDNDBF</td>\n",
       "      <td>怎么</td>\n",
       "      <td>您 描述 问题 清楚</td>\n",
       "      <td>您 描述 问题 清楚</td>\n",
       "      <td>VAVSNVZNZZNXNDHDBDNDBF 怎么</td>\n",
       "      <td>2</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1678</th>\n",
       "      <td>Q1679</td>\n",
       "      <td>奔驰</td>\n",
       "      <td>奔驰E级</td>\n",
       "      <td>如图 问题</td>\n",
       "      <td></td>\n",
       "      <td>这个 毫米波 雷达 问题 需要 重新 调整 一下</td>\n",
       "      <td>这个 毫米波 雷达 问题 需要 重新 调整 一下</td>\n",
       "      <td>如图 问题</td>\n",
       "      <td>2</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>30893</th>\n",
       "      <td>Q30894</td>\n",
       "      <td>奥迪</td>\n",
       "      <td>奥迪A6</td>\n",
       "      <td></td>\n",
       "      <td>想 咨询</td>\n",
       "      <td>想 咨询</td>\n",
       "      <td>想 咨询</td>\n",
       "      <td>想 咨询</td>\n",
       "      <td>2</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>18747</th>\n",
       "      <td>Q18748</td>\n",
       "      <td>雪佛兰</td>\n",
       "      <td>科鲁兹</td>\n",
       "      <td>车内会 异响 怎么回事</td>\n",
       "      <td></td>\n",
       "      <td>目前 就是 要 检查一下 是不是 由于 相关 部件 存在 干涉 出现 响声 还有 可能 仪表...</td>\n",
       "      <td>目前 就是 要 检查一下 是不是 由于 相关 部件 存在 干涉 出现 响声 还有 可能 仪表...</td>\n",
       "      <td>车内会 异响 怎么回事</td>\n",
       "      <td>3</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>62495</th>\n",
       "      <td>Q62496</td>\n",
       "      <td>保时捷</td>\n",
       "      <td>保时捷911</td>\n",
       "      <td>....</td>\n",
       "      <td>您好 问题</td>\n",
       "      <td>你好 如果 问题 可以 加 关注 后期 问题 可以 随时 联系</td>\n",
       "      <td>你好 如果 问题 可以 加 关注 后期 问题 可以 随时 联系</td>\n",
       "      <td>.... 您好 问题</td>\n",
       "      <td>3</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>58232</th>\n",
       "      <td>Q58233</td>\n",
       "      <td>丰田</td>\n",
       "      <td>卡罗拉</td>\n",
       "      <td>卡罗拉 1.6 自动 CVT 现在 15000 公里 早上 零下 20 度 着 车 起步 发...</td>\n",
       "      <td>您 车辆 起步 时候 才 发出 这种 声音 早晨 启动 车辆 时 原地 呆 着 有没有 这种...</td>\n",
       "      <td>您 说 这种 情况 估计 跟 发动机 应该 没有 关系 只是 偶尔 发生 一次 不用 过于 ...</td>\n",
       "      <td>您 说 这种 情况 估计 跟 发动机 应该 没有 关系 只是 偶尔 发生 一次 不用 过于 ...</td>\n",
       "      <td>卡罗拉 1.6 自动 CVT 现在 15000 公里 早上 零下 20 度 着 车 起步 发...</td>\n",
       "      <td>1470</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>70502</th>\n",
       "      <td>Q70503</td>\n",
       "      <td>宝马</td>\n",
       "      <td>宝马3系</td>\n",
       "      <td>08 年 宝马 320 客户 要 抬 缸盖 进气管 排汽管 点火 线圈 全部 拆掉 只有 缸...</td>\n",
       "      <td>钥匙 开 不了 二档 能 卡住 钥匙 能 卡住 只能 开 一档 钥匙 能 卡住 只能 开 一...</td>\n",
       "      <td>建议 更换 ELV . 可以 评论 反馈</td>\n",
       "      <td>建议 更换 ELV . 可以 评论 反馈</td>\n",
       "      <td>08 年 宝马 320 客户 要 抬 缸盖 进气管 排汽管 点火 线圈 全部 拆掉 只有 缸...</td>\n",
       "      <td>1521</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>35399</th>\n",
       "      <td>Q35400</td>\n",
       "      <td>雪佛兰</td>\n",
       "      <td>科鲁兹</td>\n",
       "      <td>科鲁兹 1.6 排量 自动挡 故障 信息 P0016 进气 凸轮轴 位置 不合理 读 数据流...</td>\n",
       "      <td>修过 大修 发动机 机油泵 和 机油 感应 塞 还有 单向阀 建议 进 排气 凸轮轴 执行器...</td>\n",
       "      <td>异响 问题 于 发动机 无关 建议 检查 震动 源 熄火 问题 检查 车辆 打铁 线 连接 ...</td>\n",
       "      <td>异响 问题 于 发动机 无关 建议 检查 震动 源 熄火 问题 检查 车辆 打铁 线 连接 ...</td>\n",
       "      <td>科鲁兹 1.6 排量 自动挡 故障 信息 P0016 进气 凸轮轴 位置 不合理 读 数据流...</td>\n",
       "      <td>1641</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>57361</th>\n",
       "      <td>Q57362</td>\n",
       "      <td>现代</td>\n",
       "      <td>名图</td>\n",
       "      <td>名图 车 方向 左重 右轻 好像 装斜 着</td>\n",
       "      <td>这个 故障 现象 怎么 产生 正常 行驶 有没有 过坑 产生 过 震动 还是 说 正常 行驶...</td>\n",
       "      <td>像 现在 这种 情况 就要 重点 检查一下 底盘 定位 时候 调整 那个 方向机 拉杆 两面...</td>\n",
       "      <td>像 现在 这种 情况 就要 重点 检查一下 底盘 定位 时候 调整 那个 方向机 拉杆 两面...</td>\n",
       "      <td>名图 车 方向 左重 右轻 好像 装斜 着 这个 故障 现象 怎么 产生 正常 行驶 有没有...</td>\n",
       "      <td>1857</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>18234</th>\n",
       "      <td>Q18235</td>\n",
       "      <td>奥迪</td>\n",
       "      <td>奥迪Q5</td>\n",
       "      <td>奥迪Q5 舒适 七年 16 万公里 低速 行驶 出现 熄火 电脑 故障 报 一大堆 如下 停...</td>\n",
       "      <td>您好 您 这种 情况 一般来说 可能 线路 进水 引起 问题 这款 车 主要 我们 发动机 ...</td>\n",
       "      <td>建议 按 说 进行 检查和 维修</td>\n",
       "      <td>建议 按 说 进行 检查和 维修</td>\n",
       "      <td>奥迪Q5 舒适 七年 16 万公里 低速 行驶 出现 熄火 电脑 故障 报 一大堆 如下 停...</td>\n",
       "      <td>5185</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>82943 rows × 9 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "          QID Brand   Model  \\\n",
       "79977  Q79978    宝骏   宝骏610   \n",
       "1678    Q1679    奔驰    奔驰E级   \n",
       "30893  Q30894    奥迪    奥迪A6   \n",
       "18747  Q18748   雪佛兰     科鲁兹   \n",
       "62495  Q62496   保时捷  保时捷911   \n",
       "...       ...   ...     ...   \n",
       "58232  Q58233    丰田     卡罗拉   \n",
       "70502  Q70503    宝马    宝马3系   \n",
       "35399  Q35400   雪佛兰     科鲁兹   \n",
       "57361  Q57362    现代      名图   \n",
       "18234  Q18235    奥迪    奥迪Q5   \n",
       "\n",
       "                                                Question  \\\n",
       "79977                             VAVSNVZNZZNXNDHDBDNDBF   \n",
       "1678                                               如图 问题   \n",
       "30893                                                      \n",
       "18747                                        车内会 异响 怎么回事   \n",
       "62495                                               ....   \n",
       "...                                                  ...   \n",
       "58232  卡罗拉 1.6 自动 CVT 现在 15000 公里 早上 零下 20 度 着 车 起步 发...   \n",
       "70502  08 年 宝马 320 客户 要 抬 缸盖 进气管 排汽管 点火 线圈 全部 拆掉 只有 缸...   \n",
       "35399  科鲁兹 1.6 排量 自动挡 故障 信息 P0016 进气 凸轮轴 位置 不合理 读 数据流...   \n",
       "57361                              名图 车 方向 左重 右轻 好像 装斜 着   \n",
       "18234  奥迪Q5 舒适 七年 16 万公里 低速 行驶 出现 熄火 电脑 故障 报 一大堆 如下 停...   \n",
       "\n",
       "                                                Dialogue  \\\n",
       "79977                                                 怎么   \n",
       "1678                                                       \n",
       "30893                                               想 咨询   \n",
       "18747                                                      \n",
       "62495                                              您好 问题   \n",
       "...                                                  ...   \n",
       "58232  您 车辆 起步 时候 才 发出 这种 声音 早晨 启动 车辆 时 原地 呆 着 有没有 这种...   \n",
       "70502  钥匙 开 不了 二档 能 卡住 钥匙 能 卡住 只能 开 一档 钥匙 能 卡住 只能 开 一...   \n",
       "35399  修过 大修 发动机 机油泵 和 机油 感应 塞 还有 单向阀 建议 进 排气 凸轮轴 执行器...   \n",
       "57361  这个 故障 现象 怎么 产生 正常 行驶 有没有 过坑 产生 过 震动 还是 说 正常 行驶...   \n",
       "18234  您好 您 这种 情况 一般来说 可能 线路 进水 引起 问题 这款 车 主要 我们 发动机 ...   \n",
       "\n",
       "                                                  Report  \\\n",
       "79977                                         您 描述 问题 清楚   \n",
       "1678                            这个 毫米波 雷达 问题 需要 重新 调整 一下   \n",
       "30893                                               想 咨询   \n",
       "18747  目前 就是 要 检查一下 是不是 由于 相关 部件 存在 干涉 出现 响声 还有 可能 仪表...   \n",
       "62495                    你好 如果 问题 可以 加 关注 后期 问题 可以 随时 联系   \n",
       "...                                                  ...   \n",
       "58232  您 说 这种 情况 估计 跟 发动机 应该 没有 关系 只是 偶尔 发生 一次 不用 过于 ...   \n",
       "70502                               建议 更换 ELV . 可以 评论 反馈   \n",
       "35399  异响 问题 于 发动机 无关 建议 检查 震动 源 熄火 问题 检查 车辆 打铁 线 连接 ...   \n",
       "57361  像 现在 这种 情况 就要 重点 检查一下 底盘 定位 时候 调整 那个 方向机 拉杆 两面...   \n",
       "18234                                   建议 按 说 进行 检查和 维修   \n",
       "\n",
       "                                             train_seg_y  \\\n",
       "79977                                         您 描述 问题 清楚   \n",
       "1678                            这个 毫米波 雷达 问题 需要 重新 调整 一下   \n",
       "30893                                               想 咨询   \n",
       "18747  目前 就是 要 检查一下 是不是 由于 相关 部件 存在 干涉 出现 响声 还有 可能 仪表...   \n",
       "62495                    你好 如果 问题 可以 加 关注 后期 问题 可以 随时 联系   \n",
       "...                                                  ...   \n",
       "58232  您 说 这种 情况 估计 跟 发动机 应该 没有 关系 只是 偶尔 发生 一次 不用 过于 ...   \n",
       "70502                               建议 更换 ELV . 可以 评论 反馈   \n",
       "35399  异响 问题 于 发动机 无关 建议 检查 震动 源 熄火 问题 检查 车辆 打铁 线 连接 ...   \n",
       "57361  像 现在 这种 情况 就要 重点 检查一下 底盘 定位 时候 调整 那个 方向机 拉杆 两面...   \n",
       "18234                                   建议 按 说 进行 检查和 维修   \n",
       "\n",
       "                                             train_seg_x  x_len  \n",
       "79977                          VAVSNVZNZZNXNDHDBDNDBF 怎么      2  \n",
       "1678                                              如图 问题       2  \n",
       "30893                                               想 咨询      2  \n",
       "18747                                       车内会 异响 怎么回事       3  \n",
       "62495                                         .... 您好 问题      3  \n",
       "...                                                  ...    ...  \n",
       "58232  卡罗拉 1.6 自动 CVT 现在 15000 公里 早上 零下 20 度 着 车 起步 发...   1470  \n",
       "70502  08 年 宝马 320 客户 要 抬 缸盖 进气管 排汽管 点火 线圈 全部 拆掉 只有 缸...   1521  \n",
       "35399  科鲁兹 1.6 排量 自动挡 故障 信息 P0016 进气 凸轮轴 位置 不合理 读 数据流...   1641  \n",
       "57361  名图 车 方向 左重 右轻 好像 装斜 着 这个 故障 现象 怎么 产生 正常 行驶 有没有...   1857  \n",
       "18234  奥迪Q5 舒适 七年 16 万公里 低速 行驶 出现 熄火 电脑 故障 报 一大堆 如下 停...   5185  \n",
       "\n",
       "[82943 rows x 9 columns]"
      ]
     },
     "execution_count": 105,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "_train_seg"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 70,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "66309     872\n",
       "26245     874\n",
       "80818     878\n",
       "73156     880\n",
       "45582     881\n",
       "         ... \n",
       "58232    1470\n",
       "70502    1521\n",
       "35399    1641\n",
       "57361    1857\n",
       "18234    5185\n",
       "Name: x_len, Length: 100, dtype: int64"
      ]
     },
     "execution_count": 70,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "_train_seg['x_len'][-100:]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 73,
   "metadata": {},
   "outputs": [],
   "source": [
    "from collections import Counter"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 79,
   "metadata": {},
   "outputs": [],
   "source": [
    "from utils.saveLoader import load_dataset, get_text\n",
    "from utils.config import TRAIN_DATA, TEST_DATA\n",
    "train_df, test_df = load_dataset(TRAIN_DATA, TEST_DATA)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 88,
   "metadata": {},
   "outputs": [],
   "source": [
    "import matplotlib.pyplot as plt"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 90,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAYMAAAD4CAYAAAAO9oqkAAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADh0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uMy4xLjEsIGh0dHA6Ly9tYXRwbG90bGliLm9yZy8QZhcZAAARVklEQVR4nO3df6zddX3H8efLVn5Mhy1SSNc2K8ZmE0kEbKCO/eHAQQFj+QOSEjMa1qSJgQwXE1e2Pxp/sECyiLIosZHOYjYrQx0Nol1TMMsSBS6DAaWyXoHBXRm9rgVxxh/V9/44n4tn5dzec29v7+299/lITs73+/5+vud8PufT8LrfH+eQqkKSNLe9abo7IEmafoaBJMkwkCQZBpIkDANJEjB/ujswUaeddlotX758urshSTPGo48++qOqWtRr24wNg+XLlzMwMDDd3ZCkGSPJf462zdNEkiTDQJJkGEiSMAwkSRgGkiQMA0kShoEkCcNAkoRhIEliBn8D+Wgs3/itaXnf52+5YlreV5LG4pGBJMkwkCQZBpIkDANJEoaBJAnDQJKEYSBJwjCQJGEYSJIwDCRJGAaSJAwDSRKGgSQJw0CShGEgSaLPMEjyfJInkzyeZKDVTk2yM8ne9ryw1ZPk9iSDSZ5Icl7X66xr7fcmWddVf297/cG2byZ7oJKk0Y3nyOCPquqcqlrZ1jcCu6pqBbCrrQNcBqxojw3AHdAJD2ATcAFwPrBpJEBamw1d+62e8IgkSeN2NKeJ1gBb2/JW4Mqu+l3V8X1gQZLFwKXAzqo6UFUHgZ3A6rbtlKr6XlUVcFfXa0mSpkC/YVDAPyd5NMmGVjujql4CaM+nt/oS4MWufYda7Uj1oR71N0iyIclAkoHh4eE+uy5JGku//w/kC6tqX5LTgZ1JfnCEtr3O99cE6m8sVm0GNgOsXLmyZxtJ0vj1dWRQVfva837gm3TO+b/cTvHQnve35kPAsq7dlwL7xqgv7VGXJE2RMcMgyVuS/PbIMnAJ8BSwHRi5I2gdcG9b3g5c2+4qWgW82k4j7QAuSbKwXTi+BNjRtr2WZFW7i+jarteSJE2Bfk4TnQF8s93tOR/4h6r6TpJHgLuTrAdeAK5u7e8HLgcGgZ8C1wFU1YEknwIeae0+WVUH2vJHgC8DJwPfbg9J0hQZMwyq6lngPT3q/wNc3KNewPWjvNYWYEuP+gBwdh/9lSQdA34DWZJkGEiSDANJEoaBJAnDQJKEYSBJwjCQJGEYSJIwDCRJGAaSJAwDSRKGgSQJw0CShGEgScIwkCRhGEiSMAwkSRgGkiQMA0kShoEkCcNAkoRhIEnCMJAkYRhIkjAMJEkYBpIkDANJEoaBJIlxhEGSeUkeS3JfWz8zyUNJ9ib5WpITWv3Etj7Yti/veo2bWv2ZJJd21Ve32mCSjZM3PElSP8ZzZHAjsKdr/VbgtqpaARwE1rf6euBgVb0TuK21I8lZwFrg3cBq4AstYOYBnwcuA84CrmltJUlTpK8wSLIUuAL4UlsPcBFwT2uyFbiyLa9p67TtF7f2a4BtVfXzqnoOGATOb4/Bqnq2qn4BbGttJUlTpN8jg88CHwd+3dbfDrxSVYfa+hCwpC0vAV4EaNtfbe1frx+2z2j1N0iyIclAkoHh4eE+uy5JGsuYYZDkg8D+qnq0u9yjaY2xbbz1NxarNlfVyqpauWjRoiP0WpI0HvP7aHMh8KEklwMnAafQOVJYkGR+++t/KbCvtR8ClgFDSeYDbwMOdNVHdO8zWl2SNAXGPDKoqpuqamlVLadzAfiBqvow8CBwVWu2Dri3LW9v67TtD1RVtfradrfRmcAK4GHgEWBFuzvphPYe2ydldJKkvvRzZDCavwC2Jfk08BhwZ6vfCXwlySCdI4K1AFW1O8ndwNPAIeD6qvoVQJIbgB3APGBLVe0+in5JksZpXGFQVd8FvtuWn6VzJ9DhbX4GXD3K/jcDN/eo3w/cP56+SJImj99AliQZBpIkw0CShGEgScIwkCRhGEiSMAwkSRgGkiQMA0kShoEkCcNAkoRhIEnCMJAkYRhIkjAMJEkYBpIkDANJEoaBJAnDQJKEYSBJwjCQJGEYSJIwDCRJGAaSJAwDSRKGgSQJw0CShGEgScIwkCTRRxgkOSnJw0n+PcnuJJ9o9TOTPJRkb5KvJTmh1U9s64Nt+/Ku17qp1Z9JcmlXfXWrDSbZOPnDlCQdST9HBj8HLqqq9wDnAKuTrAJuBW6rqhXAQWB9a78eOFhV7wRua+1IchawFng3sBr4QpJ5SeYBnwcuA84CrmltJUlTZMwwqI6ftNU3t0cBFwH3tPpW4Mq2vKat07ZfnCStvq2qfl5VzwGDwPntMVhVz1bVL4Btra0kaYr0dc2g/QX/OLAf2An8EHilqg61JkPAkra8BHgRoG1/FXh7d/2wfUar9+rHhiQDSQaGh4f76bokqQ99hUFV/aqqzgGW0vlL/l29mrXnjLJtvPVe/dhcVSurauWiRYvG7rgkqS/jupuoql4BvgusAhYkmd82LQX2teUhYBlA2/424EB3/bB9RqtLkqZIP3cTLUqyoC2fDHwA2AM8CFzVmq0D7m3L29s6bfsDVVWtvrbdbXQmsAJ4GHgEWNHuTjqBzkXm7ZMxOElSf+aP3YTFwNZ218+bgLur6r4kTwPbknwaeAy4s7W/E/hKkkE6RwRrAapqd5K7gaeBQ8D1VfUrgCQ3ADuAecCWqto9aSOUJI1pzDCoqieAc3vUn6Vz/eDw+s+Aq0d5rZuBm3vU7wfu76O/kqRjwG8gS5IMA0mSYSBJwjCQJGEYSJIwDCRJGAaSJAwDSRKGgSQJw0CShGEgScIwkCRhGEiSMAwkSRgGkiQMA0kShoEkCcNAkoRhIEnCMJAkYRhIkjAMJEkYBpIkDANJEoaBJAnDQJKEYSBJwjCQJNFHGCRZluTBJHuS7E5yY6ufmmRnkr3teWGrJ8ntSQaTPJHkvK7XWtfa702yrqv+3iRPtn1uT5JjMVhJUm/9HBkcAj5WVe8CVgHXJzkL2AjsqqoVwK62DnAZsKI9NgB3QCc8gE3ABcD5wKaRAGltNnTtt/rohyZJ6teYYVBVL1XVv7Xl14A9wBJgDbC1NdsKXNmW1wB3Vcf3gQVJFgOXAjur6kBVHQR2AqvbtlOq6ntVVcBdXa8lSZoC47pmkGQ5cC7wEHBGVb0EncAATm/NlgAvdu021GpHqg/1qEuSpkjfYZDkrcDXgY9W1Y+P1LRHrSZQ79WHDUkGkgwMDw+P1WVJUp/6CoMkb6YTBH9fVd9o5ZfbKR7a8/5WHwKWde2+FNg3Rn1pj/obVNXmqlpZVSsXLVrUT9clSX2YP1aDdmfPncCeqvpM16btwDrglvZ8b1f9hiTb6FwsfrWqXkqyA/jrrovGlwA3VdWBJK8lWUXn9NO1wN9OwtiOO8s3fmva3vv5W66YtveWdPwbMwyAC4E/AZ5M8nir/SWdELg7yXrgBeDqtu1+4HJgEPgpcB1A+4/+p4BHWrtPVtWBtvwR4MvAycC320OSNEXGDIOq+ld6n9cHuLhH+wKuH+W1tgBbetQHgLPH6osk6djwG8iSJMNAkmQYSJIwDCRJGAaSJAwDSRKGgSQJw0CShGEgScIwkCRhGEiSMAwkSRgGkiQMA0kShoEkCcNAkoRhIEnCMJAkYRhIkjAMJEkYBpIkDANJEoaBJAnDQJKEYSBJwjCQJGEYSJIwDCRJGAaSJPoIgyRbkuxP8lRX7dQkO5Psbc8LWz1Jbk8ymOSJJOd17bOutd+bZF1X/b1Jnmz73J4kkz1ISdKR9XNk8GVg9WG1jcCuqloB7GrrAJcBK9pjA3AHdMID2ARcAJwPbBoJkNZmQ9d+h7+XJOkYGzMMqupfgAOHldcAW9vyVuDKrvpd1fF9YEGSxcClwM6qOlBVB4GdwOq27ZSq+l5VFXBX12tJkqbIRK8ZnFFVLwG059NbfQnwYle7oVY7Un2oR72nJBuSDCQZGB4enmDXJUmHm+wLyL3O99cE6j1V1eaqWllVKxctWjTBLkqSDjfRMHi5neKhPe9v9SFgWVe7pcC+MepLe9QlSVNoomGwHRi5I2gdcG9X/dp2V9Eq4NV2GmkHcEmShe3C8SXAjrbttSSr2l1E13a9liRpiswfq0GSrwLvB05LMkTnrqBbgLuTrAdeAK5uze8HLgcGgZ8C1wFU1YEknwIeae0+WVUjF6U/QueOpZOBb7eHJGkKjRkGVXXNKJsu7tG2gOtHeZ0twJYe9QHg7LH6IUk6dvwGsiTJMJAkGQaSJAwDSRKGgSQJw0CShGEgScIwkCRhGEiSMAwkSRgGkiQMA0kSffxQnWaH5Ru/NS3v+/wtV0zL+0oaH48MJEmGgSTJMJAkYRhIkjAMJEkYBpIkDANJEoaBJAnDQJKEYSBJwjCQJGEYSJLwh+p0jE3XD+SBP5InjYdHBpIkw0CSZBhIkjiOrhkkWQ18DpgHfKmqbpnmLmmG83/oI/XvuDgySDIP+DxwGXAWcE2Ss6a3V5I0dxwvRwbnA4NV9SxAkm3AGuDpae2VNAHTeQfVXONR2OQ5XsJgCfBi1/oQcMHhjZJsADa01Z8keWaC73ca8KMJ7jtTOebZb66Nl9w698bM0c3z74624XgJg/So1RsKVZuBzUf9ZslAVa082teZSRzz7DfXxguOeTIdF9cM6BwJLOtaXwrsm6a+SNKcc7yEwSPAiiRnJjkBWAtsn+Y+SdKccVycJqqqQ0luAHbQubV0S1XtPoZvedSnmmYgxzz7zbXxgmOeNKl6w6l5SdIcc7ycJpIkTSPDQJI0t8IgyeokzyQZTLJxuvszWZIsS/Jgkj1Jdie5sdVPTbIzyd72vLDVk+T29jk8keS86R3BxCWZl+SxJPe19TOTPNTG/LV2QwJJTmzrg2378uns90QlWZDkniQ/aPP9vtk+z0n+vP27firJV5OcNNvmOcmWJPuTPNVVG/e8JlnX2u9Nsm48fZgzYTDLf/LiEPCxqnoXsAq4vo1tI7CrqlYAu9o6dD6DFe2xAbhj6rs8aW4E9nSt3wrc1sZ8EFjf6uuBg1X1TuC21m4m+hzwnar6feA9dMY+a+c5yRLgz4CVVXU2nRtM1jL75vnLwOrDauOa1ySnApvofGH3fGDTSID0parmxAN4H7Cja/0m4Kbp7tcxGuu9wB8DzwCLW20x8Exb/iJwTVf719vNpAed76PsAi4C7qPz5cUfAfMPn3M6d6q9ry3Pb+0y3WMY53hPAZ47vN+zeZ75za8TnNrm7T7g0tk4z8By4KmJzitwDfDFrvr/azfWY84cGdD7Jy+WTFNfjpl2WHwu8BBwRlW9BNCeT2/NZstn8Vng48Cv2/rbgVeq6lBb7x7X62Nu219t7WeSdwDDwN+1U2NfSvIWZvE8V9V/AX8DvAC8RGfeHmV2z/OI8c7rUc33XAqDvn7yYiZL8lbg68BHq+rHR2raozajPoskHwT2V9Wj3eUeTauPbTPFfOA84I6qOhf4X35z6qCXGT/mdppjDXAm8DvAW+icJjncbJrnsYw2xqMa+1wKg1n9kxdJ3kwnCP6+qr7Ryi8nWdy2Lwb2t/ps+CwuBD6U5HlgG51TRZ8FFiQZ+TJl97heH3Pb/jbgwFR2eBIMAUNV9VBbv4dOOMzmef4A8FxVDVfVL4FvAH/A7J7nEeOd16Oa77kUBrP2Jy+SBLgT2FNVn+natB0YuaNgHZ1rCSP1a9tdCauAV0cOR2eKqrqpqpZW1XI6c/lAVX0YeBC4qjU7fMwjn8VVrf2M+ouxqv4beDHJ77XSxXR+5n3WzjOd00OrkvxW+3c+MuZZO89dxjuvO4BLkixsR1SXtFp/pvuiyRRfoLkc+A/gh8BfTXd/JnFcf0jncPAJ4PH2uJzOudJdwN72fGprHzp3Vv0QeJLOnRrTPo6jGP/7gfva8juAh4FB4B+BE1v9pLY+2La/Y7r7PcGxngMMtLn+J2DhbJ9n4BPAD4CngK8AJ862eQa+SueayC/p/IW/fiLzCvxpG/sgcN14+uDPUUiS5tRpIknSKAwDSZJhIEkyDCRJGAaSJAwDSRKGgSQJ+D9+h7C7WlA4TQAAAABJRU5ErkJggg==\n",
      "text/plain": [
       "<Figure size 432x288 with 1 Axes>"
      ]
     },
     "metadata": {
      "needs_background": "light"
     },
     "output_type": "display_data"
    }
   ],
   "source": [
    "plt.hist(_train_seg[\"x_len\"], range=(0,1000))\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 102,
   "metadata": {},
   "outputs": [],
   "source": [
    "_test_seg['test_seg_x'] = _test_seg[['Question', 'Dialogue']].apply(lambda x: ' '.join(x), axis=1)\n",
    "_test_seg['x_len'] = _test_seg['test_seg_x'].apply(lambda x: len(x.strip().split(\" \")))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 108,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "E:\\software\\Anaconda3\\envs\\tf2.0\\lib\\site-packages\\ipykernel_launcher.py:1: FutureWarning: The signature of `Series.to_csv` was aligned to that of `DataFrame.to_csv`, and argument 'header' will change its default value from False to True: please pass an explicit value to suppress this warning.\n",
      "  \"\"\"Entry point for launching an IPython kernel.\n"
     ]
    }
   ],
   "source": [
    "_train_seg['train_seg_x'].to_csv(\"test\", index=None)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python [conda env:tf2.0]",
   "language": "python",
   "name": "conda-env-tf2.0-py"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.4"
  },
  "toc": {
   "base_numbering": 1,
   "nav_menu": {},
   "number_sections": true,
   "sideBar": true,
   "skip_h1_title": false,
   "title_cell": "Table of Contents",
   "title_sidebar": "Contents",
   "toc_cell": false,
   "toc_position": {},
   "toc_section_display": true,
   "toc_window_display": false
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
